Partial MaxSAT (PMS) and Weighted PMS (WPMS) are two practical generalizations of the MaxSAT problem. In this paper, we propose a local search algorithm for these problems, called BandHS, which applies two multi-armed bandits to guide the search directions when escaping local optima. One bandit is combined with all the soft clauses to help the algorithm select to satisfy appropriate soft clauses, and the other bandit with all the literals in hard clauses to help the algorithm select appropriate literals to satisfy the hard clauses. These two bandits can improve the algorithm's search ability in both feasible and infeasible solution spaces. We further propose an initialization method for (W)PMS that prioritizes both unit and binary clauses when producing the initial solutions. Extensive experiments demonstrate the excellent performance and generalization capability of our proposed methods, that greatly boost the state-of-the-art local search algorithm, SATLike3.0, and the state-of-the-art SAT-based incomplete solver, NuWLS-c.
translated by 谷歌翻译
视频时间基础(VTG)的目标是根据自然语言(NL)描述在未修剪视频中定位时间矩。由于现实世界的应用程序提供了永无止境的视频流,因此它提出了对长形视频的时间基础的需求,这导致了两个主要挑战:(1)长视频长度使得很难处理整个视频而不减少样本速率并导致高计算负担; (2)随着候选时间的增加数量,准确的多模式对准更具挑战性。为了应对这些挑战,我们提出了一个有效的以窗户为中心的粗略对齐框架,它可以灵活地处理具有较高推理速度的长格式视频输入,并通过我们的新颖的Choce-Fine Muly-Fine增强了时间基础模态对齐框架。具体来说,我们通过滑动窗口方法将长视频将长视频切成候选窗口。 Cone(1)以窗户为中心,通过对比度学习和通过对NL查询相关的候选窗口进行过滤来学习窗口间的(粗粒)语义差异,并且(2)执行内部(罚款) - 使用强大的对比视力文本预训练模型的强大多模式对齐能力对候选力矩进行排名。长期视频的两个大规模VTG基准测试的广泛实验始终显示出可观的性能增长(MAD的3.13%至6.87%,从10.46%到EGO4D-NLQ上的10.46%至13.46%),并且Cone在两个数据集上都可以达到SOTA结果。分析揭示了组件的有效性和长期视频接地的效率较高,因为我们的系统在EGO4D-NLQ上提高了2倍的推理速度,而在MAD上提高了15倍的速度,同时保持了锥体的SOTA性能。
translated by 谷歌翻译
从单眼RGB图像中重建3D手网络,由于其在AR/VR领域的巨大潜在应用,引起了人们的注意力越来越多。大多数最先进的方法试图以匿名方式解决此任务。具体而言,即使在连续录制会话中用户没有变化的实际应用程序中实际上可用,因此忽略了该主题的身份。在本文中,我们提出了一个身份感知的手网格估计模型,该模型可以结合由受试者的内在形状参数表示的身份信息。我们通过将提出的身份感知模型与匿名对待主题的基线进行比较来证明身份信息的重要性。此外,为了处理未见测试对象的用例,我们提出了一条新型的个性化管道来校准固有的形状参数,仅使用该受试者的少数未标记的RGB图像。在两个大型公共数据集上进行的实验验证了我们提出的方法的最先进性能。
translated by 谷歌翻译
由于其稀疏和细长的性质,估算3D空间中准确的车道线仍然具有挑战性。在这项工作中,我们提出了M^2-3dlanenet,这是一个有效3D车道检测的多模式框架。旨在集成来自多传感器的互补信息,M^2-3dlanenet首先将多模式特征提取具有模态特异性骨架,然后将它们融合在统一的鸟眼视图(BEV)空间中。具体而言,我们的方法由两个核心组成部分组成。 1)要获得准确的2D-3D映射,我们提出了自上而下的BEV生成。其中,使用线条限制的变形(LRDA)模块可用于以自上而下的方式有效地增强图像特征,从而充分捕获车道的细长特征。之后,它使用深度感知的举重将2D锥体特征投入到3D空间中,并通过枕形生成BEV特征。 2)我们进一步提出了自下而上的BEV融合,该融合通过多尺度的级联注意力汇总了多模式特征,从而集成了来自摄像头和激光雷达传感器的互补信息。足够的实验证明了M^2-3dlanenet的有效性,该实验的有效性超过了先前的最先进方法,即在OpenLane数据集上提高了12.1%的F1-SCORE改善。
translated by 谷歌翻译
旅行推销员问题(TSP)是许多实用变体的经典NP-HARD组合优化问题。 Lin-Kernighan-Helsgaun(LKH)算法是TSP的最先进的本地搜索算法之一,LKH-3是LKH的强大扩展,可以解决许多TSP变体。 LKH和LKH-3都将一个候选人与每个城市相关联,以提高算法效率,并具有两种不同的方法,称为$ \ alpha $ - 计算和Popmusic,以决定候选人集。在这项工作中,我们首先提出了一种可变策略加强LKH(VSR-LKH)算法,该算法将三种强化学习方法(Q-Learning,SARSA和Monte Carlo)与LKH算法结合在一起,以解决TSP。我们进一步提出了一种称为VSR-LKH-3的新算法,该算法将可变策略强化学习方法与LKH-3结合在一起,用于典型的TSP变体,包括带有时间窗口(TSPTW)和彩色TSP(CTSP)的TSP。所提出的算法取代了LKH和LKH-3中的不灵活的遍历操作,并让算法学会通过增强学习在每个搜索步骤中做出选择。 LKH和LKH-3都具有$ \ alpha $量或Popmusic方法,我们的方法都可以显着改善。具体而言,对236个公共和广泛使用的TSP基准的经验结果具有多达85,900个城市,证明了VSR-LKH的出色表现,扩展的VSR-LKH-3也显着超过了TSPTW和TSPTW和TSPTW和TSPTW的最新启发式方法CTSP。
translated by 谷歌翻译
在本文中,我们制定了一个潜在的有价值的全景深度完成(PDC)任务,因为全景3D摄像机通常会产生360 {\ deg}深度,而在复杂场景中缺少数据。它的目标是从原始的稀疏图像和全景RGB图像中恢复密集的全景深度。为了处理PDC任务,我们训练一个深度网络,该网络将深度和图像作为密集的全景深度恢复的输入。但是,由于其非凸目标函数,它需要面对网络参数的具有挑战性的优化问题。为了解决这个问题,我们提出了一种简单而有效的方法,称为m {^3} pt:多模式掩盖的预训练。具体而言,在预训练期间,我们同时覆盖了全景RGB图像和通过共享随机掩码的稀疏深度的斑块,然后重建掩盖区域中的稀疏深度。据我们所知,这是我们第一次在多模式视觉任务中展示蒙版预训练的有效性,而不是蒙版自动编码器(MAE)解决的单模式任务。与MAE进行微调完全丢弃了预训练的解码器部分,在我们的M $^{3} $ pt中的预训练和微调阶段之间没有建筑差异,因为它们在预测密度方面只有不同,这有可能使转移学习更加方便和有效。广泛的实验验证了三个全景数据集上M {^3} PT的有效性。值得注意的是,我们在RMSE中平均将最先进的基线提高了26.2%,MRE的51.7%,MAE为49.7%,在三个基准数据集中将RMSelog的RMSelog在37.5%中提高了37.5%。
translated by 谷歌翻译
差异图像注册是医学图像分析中的至关重要任务。最近基于学习的图像注册方法利用卷积神经网络(CNN)学习图像对之间的空间转换并达到快速推理速度。但是,这些方法通常需要大量的培训数据来提高其概括能力。在测试时间内,基于学习的方法可能无法提供良好的注册结果,这很可能是因为培训数据集的模型过于拟合。在本文中,我们提出了连续速度场(NEVF)的神经表示,以描述两个图像之间的变形。具体而言,该神经速度场为空间中的每个点分配了一个速度向量,该速度在对复杂变形场进行建模时具有更高的灵活性。此外,我们提出了一种简单的稀疏抽样策略,以减少差异注册的记忆消耗。提出的NEVF还可以与预先训练的基于学习的模型合并,该模型的预测变形被视为优化的初始状态。在两个大规模3D MR脑扫描数据集上进行的广泛实验表明,我们提出的方法的表现优于最先进的注册方法。
translated by 谷歌翻译
我们解决了部分MaxSat(PMS)和加权PMS(WPM),这是MaxSat问题的两个实际概括,并为这些问题(称为BandMaxSat)提出了一种局部搜索算法,该算法应用了多臂Bantit模型来指导搜索方向。我们方法中的匪徒与输入(w)pms实例中的所有软子句相关联。每个手臂对应于软子句。 Bandit模型可以通过选择要在当前步骤中满足的软子句,即选择要拉的臂来帮助BandmaxSat选择一个良好的方向以逃脱本地Optima。我们进一步提出了一种初始化方法(w)PMS,在生产初始解决方案时优先考虑单元和二进制条款。广泛的实验表明,BandMaxSat显着优于最先进的(W)PMS本地搜索算法SATLIKE3.0。具体而言,BandMaxSat获得更好结果的实例数量大约是Satlike3.0获得的两倍。此外,我们将bandmaxsat与完整的求解器tt-open-wbo-inc相结合。最终的求解器bandmaxsat-c还胜过一些最好的最新完整(W)PMS求解器,包括satlike-c,loandra和tt-open-wbo-inc。
translated by 谷歌翻译
实现通用语言情报是自然语言处理的长期目标,标准评估基准发挥基本和指导作用。我们认为,对于通用语言智能评估,基准本身需要全面和系统。为此,我们提出了Cuge,一种中文语言理解和生成评估基准,具有以下特征:(1)分层基准框架,其中数据集主要选择和组织语言能力 - 任务数据集层次结构。 (2)多级评分策略,其中基于分层框架提供了不同级别的模型性能。为了促进CUGE,我们提供了一个公共排行榜,可以自定义,以支持灵活的模型判断标准。代表性预先训练的语言模型的评估结果表明了对通用语言智能的完善的充足空间。 Cuge在Cuge.baai.ac.cn上公开提供。
translated by 谷歌翻译
多标签少量拍摄图像分类(ML-FSIC)是基于少量训练示例将描述性标签分配给以前的未经看台图像的任务。多标签设置的关键特征是图像通常具有多个标签,该标签通常是指图像的不同区域。当估计原型的基于度量的设置时,重要的是确定哪些区域与哪个标签相关,但训练数据有限使得这一极具挑战性。作为一个解决方案,在本文中,我们建议使用Word Embeddings作为关于标签含义的先前知识的形式。特别地,使用依赖于标签嵌入的关注机制来聚合支持图像的本地特征映射来获得视觉原型。作为一个重要的优势,我们的模型可以在不需要微调任何模型参数的情况下推断出不必要的标签的原型,这证明了其强大的概括能力。 Coco和Pascal VOC的实验还表明,我们的模型大大提高了当前最先进的。
translated by 谷歌翻译